AIBase
首頁
AI 資訊
AI 產品庫
GEO 平台
MCP 服务
模型算力廣場
AI 全能力超市
TW

AI資訊

查看更多

推理性能再飛躍!DeepSeek推創新技術SPCT,讓大模型更懂人心

備受矚目的中國人工智能研究實驗室DeepSeek AI,繼其強大的開源語言模型DeepSeek-R1之後,再次在大型語言模型(LLM)領域取得重大突破。近日,DeepSeek AI正式推出一項名爲自主演原則的批判調優(Self-Principled Critique Tuning,簡稱SPCT)的創新技術,旨在構建更通用、更具擴展性的AI獎勵模型(Reward Models,簡稱RMs)。這項技術有望顯著提升AI在開放式任務和複雜環境中的理解和應對能力,爲更智能的AI應用鋪平道路。背景:獎勵模型——強化學習的“指路明燈”在開發先進的LLM的過程中,強化學習(Reinfo

20.7k 6 小時前
推理性能再飛躍!DeepSeek推創新技術SPCT,讓大模型更懂人心

AI產品

查看更多
Self-Rewarding Language Models

Self-Rewarding Language Models

語言模型自我獎勵訓練

AI模型
10k

模型

查看更多

kimi-thinking-preview

Moonshot

kimi-thinking-preview

$200

輸入tokens/百萬

$200

輸出tokens/百萬

131

上下文長度

AIBase
智啟未來,您的人工智能解決方案智庫
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2026AIBase
商務合作網站地圖